#compresión de caché

No seas tan Stief: optimización de KV Cache en la variedad de Stiefel

Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.

2026-06-03 · 2 min

WildCat: Atención casi lineal en teoría y práctica

Descubre WildCat, un nuevo método de atención que logra error mínimo en tiempo casi lineal. Ideal para modelos de IA con secuencias largas. ¡Lee más!

2026-06-02 · 3 min